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Capítulo 1 - Modelo Multidimensional e OLAP 



Modelo Relacional- Formas Normais e Dependências Funcionais 

Dependência funcional: Seja uma relação R com conjuntos de atributos X e Y, diz-se que X 
determina Y (X -> Y) se para todo o valor de X existe um só valor de Y. Por outras palavras, 
sempre que dois tuplos têm um valor de X comum, têm também o valor de Y em comum. 

I a Forma Normal: Uma relação está na I a Forma normal se todos os seus atributos são valores 
escalares. 

2 a Forma Normal: Uma relação está na 2 a Forma normal se está na I a Forma Normal e cada 
atributo não chave é completamente dependente dos atributos chave. 

3 a Forma Normal: Uma Relação está na 3 a Forma normal se todos os atributos não chave são 
completamente dependentes dos atributos chave e são independentes entre si. 

BCNF: Uma Relação está na BCNF quando todos os determinantes são chave. A BCNF só se 
distingue da 3FN quando existe mais do que uma chave e as chaves são formadas por vários 
atributos. 

Exercício 1 

Obtenha o esquema relacional simplificado (que inclui apenas os nomes das relações e nomes dos 
atributos) para o seguinte esquema E/R. 
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Exercício 2 

Considere o seguinte esquema relacional: 

Empregado (nomeEmp, rua, cidade) 

Trabalha(nomeEmp, nomeOrg, salário) 

Organização(nomeOrg, cidade) 

Gere(nomeEmp, nomeGestor) 
Expresse, em álgebra relacional e em SQL, as seguintes interrogações: 

a) Quais os nomes dos empregados que trabalham no "Banco N°l"? 

b) Quais os nomes dos empregados que vivem na mesma cidade que a organização em que 
trabalham? 

c) Quais os nomes dos empregados que não trabalham para o "Banco N°l"? 

d) Quais os nomes dos empregados que ganham mais do que qualquer outro empregado do 
"Banco N°l"? 

e) Quais as organizações cujos empregados ganham, em média, uma salário superior à média dos 
saláriosdo Banco N°l? (Expresse apenas em SQL) 

Exercício 3 

Considere as seguintes entidades/relações RI, R2, R3 e R4, respectivos atributos e as dependências 
funcionais correspondentes: 

R1(A,B, C,D) 

B->D 

AB->C 

R2(A, B, C, D, E) 
AB -> CE 
E->AB 
C->D 

R3(A, B, C, D) 
B->D 
D->B 
ABD -> C 



R4(A, B, C, D) 
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A -> BCD 
B -> ACD 
CD -> AB 

Para cada entidade/relação, diga qual o identificador e em que FN está? 



ixerciCÍO 4 (Formas Normais) 

Considere a relação R(a,b,c,d,e), em que {a,b} é a chave primária e d->e . 

a) Indique todas as dependências da relação R. 

b) Qual a forma normal da relação R? 

c) Assuma agora que a chave primária de R é {a,b,d}. Em que forma normal a relação R passa a 
estar? 

Exercício 5 (Formas Normais) 

Considere a relação R(a,b,c,d), em que {a,b} é a chave primária. 

a) Indique uma dependência funcional entre os atributos de R de forma a que R não esteja na 2 a 
forma normal. 

b) Indique uma dependência funcional entre os atributos de R de forma a que R esteja na 2 a 
forma normal mas não esteja na 3 a forma normal. 

c) Indique uma dependência funcional entre os atributos de R de forma a que R esteja na 3 a 
forma normal mas não esteja na Boyce Codd. 

Exercício 6 (Formas Normais) 

Considere a relação R (a,b,c) e a sua decomposição nas relações Rl(b,c) e R2(a,c). 

a) Qual ou quais as dependências que têm necessariamente que existir entre os atributos a, b e c 
para que a decomposição de R em RI e R2 não represente perda de informação? 

b) Assumindo a existência da ou das dependências anteriores, escreva uma expressão em álgebra 
relacional que permita reconstituir R a partir de RI e R2 ? 

Datawarehouse 

Um Datawarehouse é um conjunto de dados centralizado de dados temáticos, históricos, datados, 
integrados e persistentes que oferece um nível de qualidade adequado às aplicações de decisão. Um 
Datawarehouse também pode ser definido como uma arquitectura de integração de dados que suporta a 
tomada de decisão através de: 
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- técnicas OLAP (interrogações estruturadas ou ad-hoc, geração de relatórios analíticos) para 
visualização e navegação de informação segundo diferentes perspectivas 

- e técnicas de data mining: técnicas de análise de dados mais avançadas para compreender os 
dados. 

Modelo conceptual de um DW pode existir nas seguintes formas: 

- Modelo em Estrela constituído por uma tabela de factos sem dados redundantes no meio 
ligada a um conjunto de tabelas de dimensões; 

- Modelo em Floco de Neve é um refinamento do modelo em estrela emque algumas dimensões 
estão normalizadas estando assim os dados de cada dimensão separados em várias tabelas; 

- Modelo em Constelação constituído por múltiplas tabelas de factos que partilham tabelas de 
dimensões que são vistas como uma colecção de estrelas. 

Tabelas de dimensões tipicamente contêm atributos descritivos, contêm muitas vezes uma hierarquia 
de conceitos (ex: dia < mês < ano na dimensão Tempo) e poucos tuplos 

Tabela de factos contém uma chave composta pelas chaves estrangeiras para as tabelas de dimensão, 
contém atributos tipicamente numéricos que correspondem às medidas de negócio e muitos tuplos. 

Cubo de dados (relativo a n dimensões) é uma representação lógica de modelo multidimensional em 
que as fases do cubo representam as dimensões e as células do cubo contêm valores das medidas (ou 
factos) para cada combinção de valores das dimensões. 

Operações OLAP 

- Roll up (drill-up): sumariza os dados, subindo na hierarquia dentro de uma dimensão ou 
reduzindo uma dimensão. 

- Drill down (roll down): inverso do roll-up, desce de um nível de sumarização mais elevado 
para outro mais baixo, ou introduz uma nova dimensão. 

- Slice: executa uma selecção sobre uma dimensão do cubo. 

- Dice: define um sub-cubo executando uma selecção sobre duas ou mais dimensões 

- Pivot (rotate): reorienta o cubo, representação de informação em 3D numa série de planos 2D 

- Drill across: navega através de uma ou mais tabelas de factos 



Cláudia Antunes, Helena Galhardas e Arlindo L. Oliveira 



Caderno de Exercícios de Sistemas de Apoio à Decisão Capítulo 1 - Modelo Multidimensiona 

Exercício 7 (Data Mining - Exercício 2.5) 

Suponha um datawarehouse que contém as seguintes quatro dimensões: Data, Espectador, Localização 

e Jogo e o facto "preço" que consiste no valor, em euros, pago por um espectador quando assiste a um 
determinado jogo numa dada data. Suponha ainda que os espectadores podem ser estudantes, adultos 
ou seniores, e que cada uma destas categorias tem o seu preço de bilhete. 

Pretende-se que a dimensão data contenha o dia, mês e ano; que a dimensão Localização contenha o 
nome do estádio, e que a dimensão Jogo contenha o nome das duas equipas defrontadas. 

a) Desenhe um diagrama em estrela para este DW. 

b) Escreva em SQL a interrogação que devolve o preço total pago por espectadores estudantes 
para assistir ao jogo que se realizou no Estádio da Luz no dia 1 de Março de 2005. 

c) Apresente um esquema relacional que modele a mesma informação e uma interrogação SQL 
que devolva a mesma informação pedida em b). Comente quais as vantagens/desvantagens do 
diagrama em estrela face ao esquema relacional em termos das respectivas interrogações SQL. 



Exercício 8 (Data Mining - Exercício 2.3) 

Considere um data warehouse (DW) que consista nas 3 dimensões tempo, médico e paciente, e a 

medida quantia, correspondente à quantia cobrada pelo médico em cada consulta a um doente. 
Pretende-se que a dimensão tempo contenha o dia, mês, trimestre e ano; a dimensão médico contenha o 
nome do médico, a especialidade, a cidade, o estado e o país; a dimensão paciente contenha o sexo e a 
faixa etária a que pertence. 

a) Desenhe o modelo em floco de neve para o DW acima. 

b) Começando pelo cubo [dia, médico, paciente], que operações OLAP devem ser executadas de 
modo a recolher o total cobrado por cada médico em Lisboa no ano 2004? 

c) De modo a obter a mesma informação, que interrogação SQL deveria executar se os dados 
estivessem registados numa base de dados relacional com o seguinte esquema 

cobrança(dia, mês, ano, médico, cidade, estado, país, paciente, quantia) 

Exercício 9 

Desenhe um data warehouse para o Instituto Nacional de Metereologia. O instituto tem cerca de 1000 
estações, que estão espalhadas por diferentes zonas em terra e no mar, e que recolhem dados básicos 
sobre as condições atmosféricas em cada hora, incluindo: pressão atmosférica, temperatura e 
precipitação. 

a) Desenhe o modelo em estrela para o DW acima. 
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b) Começando pelo cubo [hora, estação], que operações OLAP devem ser executadas de modo a 
recolher o valor médio da temperatura em cada estação? 

c) E para recolher o valor médio da temperatura diário em cada estação? E mensal? 

d) Qual o tamanho da tabela de factos se forem feitos registos durante um ano? 

Exercício 10 

Considere uma cadeia de livrarias que usa um DW para gerar informação para melhorar o seu negócio. 
A cadeia tem várias livrarias espalhadas por várias cidades, dos diferentes distritos do país, tendo por 
vezes mais do que uma livraria na mesma cidade. Nas livrarias são vendidos livros escolares e não 
escolares, e cada livro diz respeito a uma matéria específica. No DW são registadas as quantidades de 
livros vendidos em cada dia e em cada loja, assim como o respectivo valor das vendas. 

a) Quais as dimensões para este DW? E as hierarquias? 

b) Desenhe o modelo em estrela para o DW acima. 

c) Desenhe o cubo correspondente. 

d) Que operações OLAP devem ser executadas de modo a recolher o valor médio das vendas em 
cada loja? E em cada cidade? 
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CapítUlO 2 - ÁRVORES DE DECISÃO 



Conceito de Entropia 



Entropia(S) = Y J ~Pi lo S 2 Pi ^ lo S 2 c 



i=\ 



A Entropia é a medida da impureza do conjunto de treino. Assumindo o valor máximo (1) quando 
existem tantos elementos positivos como negativos, e o valor mínimo (0) quando todos os elementos 
são da mesma classe. 

Conceito de Ganho de Informação 



is,. 



Ganho de Informação (S, A) = Entropia(S) - ^ — —Entropia{S v ) 



veValores(A) 



\s\ 



O ganho de informação é a redução esperada no valor da Entropia, devido à ordenação do conjunto de 
treino segundo os valores do atributo A. 



Algoritmo ID3 



ID3 ( D, A, Atributos ) 

// com D o conjunto de exemplos, A o atributo alvo, e Atributos a lista de atributos que caracteriza as 
entidades; 

1 . Criar um nó raiz da árvore; 

2. Se todos os exemplos são positivos, rotular o nó como positivo (+) e devolver a árvore; 

3. Se todos os exemplos são negativos, rotular o nó como negativo (-) e devolver a árvore; 

4. Se a lista de atributos está vazia, devolver a árvore, com um rótulo idêntico ao valor assumido pela 
maioria dos exemplos; 

5. Senão: 

a. A <— o atributo da lista de atributos, que melhor classifique os exemplos; usa-se o Ganho de 
Informação para escolher o atributo que melhor classifique os exemplos; 

b. O nó recebe A, como rótulo; 

c. Para cada valor possível Vi de Valores(A): 

i. Adicionar um novo ramo, a partir do nó, correspondente ao teste A= v A ; 
ii. D Vi <— o subconjunto de D, com A= v A ; 
iii. SeDvi={}: 

Então devolver a árvore, com um rótulo idêntico ao valor assumido pela maioria dos 
exemplos; 
Senão, por debaixo deste ramo adicionar a sub-árvore ID3 ( Dv;, A, Atributos-{A} ) 
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Exercício 1 (Machine Learning 3.1) 

Desenhe as árvores de decisão para os seguintes problemas. 

a) Aa^B 

b) Av[BaC] 

c) A xor B 

d) [AaB]v[CaD] 



Exercício 2 

Considere o seguinte conjunto de exemplos de treino que descreve o conceito "Assinante da Revista 
Turbo". Cada exemplo descreve as características de uma pessoa e se é assinante da revista. As 
características consideradas são: o sexo, a idade (<26 anos) e se tem carro. 





Sexo 


Idade<26 


Tem Carro 


Cliente? 


XI 


M 


T 


F 


Sim 


X2 


M 


T 


T 


Sim 


X3 


F 


T 


T 


Não 


X4 


M 


F 


T 


Não 


X5 


F 


T 


F 


Não 


X6 


M 


T 


F 


Sim 


XI 


M 


F 


F 


Não 


X8 


F 


F 


F 


Não 


X9 


F 


T 


F 


Não 


X10 


F 


F 


T 


Não 



a) Calcule o valor da Entropia deste conjunto de treino no que diz respeito ao conceito Cliente?. 

b) Calcule o Ganho de Informação para o atributo Sexo. 

c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto 
de treino, construída de acordo com o critério de maximização do ganho de informação. 



Exercício 3 (Machine Learning - Exercício 3.2) 

Considere o seguinte conjunto de treino. 





A1 


A2 


F 


1 


T 


T 


Yes 


2 


T 


T 


Yes 


3 


T 


F 


No 


4 


F 


F 


Yes 


5 


F 


T 


No 


6 


F 


T 


No 



a) Calcule o valor da Entropia deste conjunto de treino no que diz respeito à função objectivo F. 

b) Calcule o Ganho de Informação para o atributo A2 



Exercício 4 (Machine Learning - Exercício 3.4) 

Considere o seguinte conjunto de treino. 



Sky AirTemp Humidity Wind Water Forecast EnjoySport 
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1 


Sunny 


Warm 


Normal 


Strong 


Warm 


Same 


Yes 


2 


Sunny 


Warm 


High 


Strong 


Warm 


Same 


Yes 


3 


Rainy 


Cold 


High 


Strong 


Warm 


Change 


No 


4 


Sunny 


Warm 


High 


Strong 


Cool 


Change 


Yes 



a) Desenhe a árvore de decisão para o conjunto de treino. 

b) Qual a relação entre essa árvore de decisão e o espaço de versões determinado no exercício 5 
da aula 1 . 

c) Adicione o seguinte exemplo ao conjunto de treino, e volte a calcular a árvore de decisão. 





Sky 


AirTemp Humidity 


Wind 


Water 


Forecast 


EnjoySport 


5 


Sunny 


Warm 


Normal 


Weak 


Warm 


Same 


No 



Exercício 5 (Machine Learning - Exemplo 3.4.2) 

Considere o seguinte conjunto de treino. 



Outlook 


Temp 


Humidity 


Wind 


Play? 


Sunny 


Hot 


High 


Weak 


No 


Sunny 


Hot 


High 


Strong 


No 


Overcast 


Hot 


High 


Weak 


Yes 


Rainy 


Mild 


High 


Weak 


Yes 


Rainy 


Cool 


Normal 


Weak 


Yes 


Rainy 


Cool 


Normal 


Strong 


No 


Overcast 


Cool 


Normal 


Strong 


Yes 


Sunny 


Mild 


High 


Weak 


No 


Sunny 


Cool 


Normal 


Weak 


Yes 


Rainy 


Mild 


Normal 


Weak 


Yes 


Sunny 


Mild 


Normal 


Strong 


Yes 


Overcast 


Mild 


High 


Strong 


Yes 


Overcast 


Hot 


Normal 


Weak 


Yes 


Rainy 


Mild 


High 


Strong 


No 



a) Desenhe a árvore de decisão para o conjunto de treino. 

Exercício 6 (Mini-Teste1995) 

Suponha que tem o seguinte conjunto de treino, em que cada exemplo é definido por três atributos 
(A,B,C). 





A 


B 


C 


X 


XI 


1 


1 


3 


P 


X2 


1 


2 


4 


P 


X3 


2 


2 


4 


N 


X4 


2 


1 


4 


N 



a) Qual a incerteza associada ao conjunto de treino inicial? 

b) Qual o Ganho de Informação de um teste efectuado no primeiro atributo (XI)? 

c) Face a este resultado, qual seria a estrutura de uma árvore de decisão obtida para este conjunto 
de treino, construída de acordo com o critério de maximização do ganho de informação. 
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Exercício 7 (Mini-Teste1996) 

Suponha que tem o seguinte conjunto de treino, em que cada exemplo é definido por três atributos 
(A,B,C)e {0, 1} x {0, 1} x [0, 20]. 





A 


B 


c 


X 


XI 


1 


1 


5.0 


P 


X2 





1 


11.5 


P 


X3 





1 


13.5 


P 


X4 


1 





15.0 


P 


X5 


1 





13.0 


P 


X6 








11.5 


N 


XI 





1 


5.0 


N 


X8 


1 





9.5 


N 


X9 








2.0 


N 


X10 


1 





8.0 


N 



a) Qual a incerteza associada ao conjunto de treino inicial? 

b) Qual é o teste seleccionado para a raiz de uma árvore de decisão usando o critério do máximo 
ganho de informação igual ao usado no sistema ID3? 

Exercício 8 (Teste 1999) 

Considere o seguinte conjunto de treino. 





A 


B 


c 


D 


X 


XI 








1 





N 


X2 


1 











N 


X3 





1 


1 


1 


P 


X4 


1 


1 


1 





P 


X5 








1 





N 


X6 


1 


1 


1 


1 


P 


X7 





1 





1 


N 


X8 














N 



a) Qual a incerteza associada ao conjunto de treino inicial? 

b) Determine qual o atributo testado na raiz de uma árvore de decisão obtida com o algoritmo 
ID3. 

c) Construa o resto da árvore de decisão obtida por este algoritmo. Indique se o resultado obtido é 
intuitivamente razoável. 

Exercício 9 (Exame 18-12-1999) 

Considere o seguinte conjunto de treino. 





Zl 


Z2 


Z3 


X 


XI 


A 





1 


N 


X2 


B 


1 





P 


X3 


C 


1 


1 


P 


X4 


A 


1 


1 


N 


X5 


C 





1 


N 


X6 


A 


1 


1 


N 


XI 


B 


1 





P 


X8 


C 








N 



a) Qual a incerteza associada ao conjunto de treino inicial? 
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b) Determine qual o atributo testado na raiz de uma árvore de decisão obtida com o algoritmo 
ID3. 



Exercício 10 (Exame 12-02-2000) 

Considere o espaço de hipótese por árvores de decisão regulares num espaço de n atributos booleanos. 
Uma árvore de decisão regular é uma árvore de decisão com 2 níveis de nós internos e 4 folhas, em 
que os dois nós filhos da raiz testam a mesma variável. 
Como função de n, quantas árvores de decisão regulares distintas existem? 

Exercício 1 1 (Exame 28-1 0-2000) 

Para este problema, considere o espaço de instâncias representado pelo espaço booleano de 6 
dimensões e admita que lhe é fornecido um conjunto de treino que inclui todas as instâncias deste 
espaço, rotulado de acordo com a expressão booleana f = xi v x 1x2x3. 

a) Indique qual a dimensão do espaço de instâncias, e qual o número de hipóteses distintas 
existentes neste espaço. 

b) Determine qual o atributo testado na raiz de uma árvore de decisão obtida com o algoritmo 
ID3. Indique os valores obtidos para a entropia original e para o ganho de informação obtido 
para cada um dos atributos. 

c) Descreva, justificando, qual a árvore de decisão obtida pelo algoritmo ID3. 

Exercício 12 (Exame 11-01-2001) 

Considere o espaço de instâncias definido no espaço rectangular de [0.0, 1.0]x [0.0, 1.0]. Cada 
instância neste espaço é representada por um par de números decimais do intervalo [0.0, 1.0], 
arredondados às décimas. Neste espaço suponha que lhe é dado o seguinte conjunto de treino: 





Zl 


Z2 


F 


XI 


1 


1 


A 


X2 


1 


7 


A 


X3 


1 


9 


A 


X4 


2 


3 


A 


X5 


3 


8 


A 


X6 


4 


2 


A 


X7 


6 


4 


A 


X8 


7 


3 


A 


X9 


7 


6 


B 


X10 


7 


8 


A 


Xll 


8 


4 


A 


X12 


9 


2 


B 


X13 


9 


9 


A 


X14 


10 


4 


B 



a) Para este conjunto de treino, indique o atributo testado na raiz de uma árvore de decisão em que 
cada nó executa um teste do tipo zi >Z, onde Z é um número do intervalo [0.0, 1.0] com uma 
casa decimal. 
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b) Descreva a árvore de decisão obtida, e ilustre graficamente a área a que correspondem objectos 
do tipo B. 

c) Indique qual o número total de conceitos que existe neste espaço. 

d) Indique qual o número de conceitos que é representável por uma árvore de decisão que 
contenha exactamente dois nós internos. 

Exercício 13 (Teste 4-05-2002) 

Considere o seguinte conjunto de treino: 



X, 


x 2 


x 3 


Classe 


0.3 


0.7 


0.8 


N 


0.7 


0.3 


0.7 


P 


0.8 


0.7 


0.8 


P 


0.8 


0.2 


0.6 


P 


0.1 


0.7 


0.2 


P 


1.0 


0.1 


0.3 


N 


0.9 


0.2 


0.4 


N 


0.3 


0.3 


0.1 


N 



a) Qual a incerteza I(p, n) associada ao conjunto de treino inicial ? 

b) Utilizando apenas testes da forma xi>0.5, determine qual o atributo testado na raiz de uma 
árvore de decisão que utilize o algoritmo ID3. 

c) Determine qual a árvore de decisão obtida com esse algoritmo. 

d) Esboce, num espaço de três dimensões, para 0.0<xl, x2, x3, x4<1.0 as zonas que a árvore de 
decisão considera conterem instâncias positivas do conceito. 

Exercício 14 (Exame 11-06-2002) 



L.D -\-m-T -#-4--ÇH$-HH- 
• ! ! Ò 






♦ ! o | 
&5-f f-#-r t \- 

* I è I ** 
-\ + í + 4>- 



I • I 
1 h 



-I- 



-I- 

l-l 



pi liuJnnciajipaiitivai 
m lii;iJ;ii>JÍ:iMiL-j.iliv.i*. 



Considere o conjunto de treino representado na figura acima, onde os valores de x e y estão restritos ao 
intervalo [0.0, 1.0]. Neste conjunto, embora os atributos sejam originalmente contínuos, todos os 
valores foram discretizados para valores múltiplos de 0.125. 

a) Qual a incerteza I(p, n) associada ao conjunto de treino inicial? 
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b) Diga qual a árvore de decisão com dois nós internos que é gerada pelo algoritmo ID3 para este 
conjunto de treino. Represente, graficamente, a zona que contém as instâncias positivas, de 
acordo com a árvore de decisão obtida. 

c) Quantos nós internos terá, no mínimo, uma árvore de decisão que permita classificar o conjunto 
de treino com 100% de precisão? 

d) Descreva um critério ou um mecanismo que permita escolher a dimensão da árvore de decisão 
que melhores resultados obterá quando for aplicada a um conjunto de teste independente do 
conjunto de treino. Pode assumir que existem mais dados além dos disponíveis no conjunto de 
treino. 



Exercício 15 (Exame 12-07-2002) 

Considere o seguinte conjunto de treino: 



Xi 


x 2 


x 3 


Classe 


vi 


v3 


v7 


P 


vi 


v3 


v8 


N 


vi 


v4 


v9 


P 


v2 


v5 


v9 


N 


v2 


v6 


v8 


P 



a) Qual a incerteza I(p, n) associada ao conjunto de treino inicial? 

b) Determine qual o atributo testado na raiz de uma árvore de decisão obtida com o algoritmo 
ID3. 
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Capítulo 3 - Redes Neuronais 



Perceptrão 

Cálculo da Saída do Perceptrão 

{1, se W0X0+W1X1+...+ w n x n >0 
-1, caso contrário 
Regra de Treino do Perceptrão - superfícies linearmente separáveis 

Sendo: 

• t=c(x) é o valor assumido pela função objectivo para o elemento x; 

• o é a saída do perceptrão, ou seja, a estimativa da função objectivo; 

• r| é o rácio de aprendizagem de valor reduzido. 

r wi <— wi + Awí 

^ Awi <- r| (t - o) Xi 

Regra Delta - Gradiente Descendente - superfícies não linearmente separáveis 

Gradiente Descendente (D, r|) (aproximação estocástica) 

Cada elemento de D é da forma <£, t >, onde ^ é o vector dos valores entrados e t o vector de 

saída. 

1 . Iniciar todos os pesos Wi com valores aleatórios pequenos 

2. Até que seja satisfeita a condição de paragem repetir: 

a. Iniciar cada Awí a 0. 

b. Para cada elemento <£, t > do conjunto de treino, fazer: 

i. Dar entrada do elemento na rede e calcular a saída da rede; 
ii. Para cada wi actualizar o seu valor 

Wi <-Wi + r|(t-a)Xi 

Exercício 1 

Desenhe o perceptrão que implementa a função lógica OR. 
E o perceptrão que implementa a função lógica AND. 
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Exercício 2 (Machine Learning - Exercício 4.1) 

Determine quais os valores dos pesos wo, wi e W2 para o perceptrão cuja superfície de decisão é dada 
pela inequação y>2x+2. 

Exercício 3 (Machine Learning - Exercício 4.2) 

Desenhe o perceptrão de duas entradas que implementa a função lógica A a — iB. 
Desenhe o perceptrão de duas camadas que implementa a função lógica A xor B. Note que, por A xor 
B não se tratar de um conjunto de treino linearmente separável, se deve usar a Regra Delta, e uma rede 
de perceptrões com duas camadas. 

Exercício 4 (Teste 2000) 

Para este problema, considere o espaço de instâncias representado pelo espaço booleano de 6 
dimensões e admita que lhe é fornecido um conjunto de treino que inclui todas as instâncias deste 
espaço, rotulado de acordo com a expressão booleana f = xi v —1X1X2X3. 

a) Indique se um perceptrão de uma camada com uma função do tipo degrau discreto pode 
representar a função representada no problema 1 . 

b) Se a sua resposta à alínea anterior foi negativa, apresente a justificação. Se foi positiva, 
apresente os valores dos pesos wi, 0< i <6 que permitem representar a função descrita. 

Redes Multi Camada 

Backpropagation(D, ti, n in , n out , n h idden) 
Cada elemento de D é da forma <£, t >, onde ^ é um vector com n in dimensões e t o vector com n ou t 
dimensões ;n in é o n° de unidades de entrada, n h idden é o n° de unidades intermédias e n ou t é o n° de 
unidades de saída; A entrada da unidade j vinda da unidade i é denotada por Xj i? e o peso da 
unidade i para a unidade j é denotada por Wjí. 

1. Criar a rede com n in entradas, n h idden unidades intermédias e n ou t unidades de saída. 

2. Iniciar todos os pesos com valores aleatórios pequenos. 

3. Até que seja satisfeita a condição de paragem repetir: 

a. Para cada elemento do conjunto de treino fazer: 

i. Dar entrada do elemento na rede e calcular as saídas da rede; 
ii. Para cada unidade de saída k, avalie o valor do erro associado à unidade j para 
as unidades de saída ôk: 

ôk = - 3E / 3netk = - 3E / 3ok x 3ok / 3netk 

ô k = -3E/ao k xf '(net k ) 

iii. Retro-propague os valores de dj para as unidades intermédias: 

Sj = f '(netj) x ZkW k j Sk (com ke outputs de j) 
iv. Actualizar cada peso Wy da rede 

Wji <r- Wji + A\Vji 

Awji(n) = r\ ôjXji+aAwji(n-l) 

(com n o número de iterações efectuadas) 

dE 1 3wji = 5j x oi 
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Exercício 5 (Machine Learning - Exercício 4.7) 

Considere a rede neuronal de duas entradas aeb, uma unidade interna c e uma unidade de saída d. 
Esta rede tem 5 pesos (w ca , w C b, w c o, Wd C , Wdo) onde w x o representa o peso treshold para a unidade x. 
Inicie todos os pesos com 0.1, e diga quais os seus valores depois de duas iterações do algoritmo 
Backpropagation. Assuma que o rácio de aprendizagem é r|=0.3, oc=0.9, uma actualização incremental 
dos pesos de acordo com a equação 1, os seguintes exemplos de treino e que os nós implementam a 
função sigmóide.: 



a 


b 


d 


1 





1 





1 






Exercício 6 

Considere a seguinte rede 



w31=1 



w32=i 




Com entrada ^ = (1,0) e saída t=0.75. Considere que 



/(*)= 


\ + 2~ x 




/•(*)= 


2~ x ln2 

(l + 2" x ) 2 




E=y : 


keoutputs 


} 



v/42=0 

a) Determine o valor da saída da rede para o estímulo de entrada (1,0). 

b) Determine o erro associado à unidade 5 (85). 

c) Determine o valor da derivada do erro em relação ao peso W53. (dE/dwss) 

d) Determine o valor da derivada do erro em relação ao peso W31. (3E/3w3i) 



Exercício 7 (Teste 1996) 

Suponha que se pretende utilizar o algoritmo de back-propagation para se actualizar os pesos da 
seguinte rede neuronal através da minimização do erro E = (o p4 -t v4 ) 2 , onde o pi é a saída observada 
para a unidade i e para o padrão de entrada p. 




U Unidades de e fritada ^T Unidades ini-i nas 

Cada nó ni que não seja um nó de entrada implementa a função 
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8i=f(Wio+Ts W ij8j"> 



f(x) 



1 



1 + éf 



Assumindo que wy = 0:5 para todo o i e j e que o estímulo de entrada é (0; 1) e se pretende uma saída 
de 1, calcule: 

a) O valor da saída para este estímulo. 

b) A derivada parcial do erro em relação ao peso W42. 

c) O valor da derivada parcial do erro em relação ao peso W32. 



ircício 8 (Teste 2* época 1999-2000) 

Descreva qual é a rede neuronal mais simples que, utilizando perceptrões, permite representar um 
espaço de hipóteses que contenha o espaço de hipóteses constituído por árvores de decisão regulares 
num espaço de n atributos booleanos. Uma árvore de decisão regular é uma árvore de decisão com 2 
níveis de nós internos e 4 folhas, em que os dois nós filhos da raiz testam a mesma variável. 

Exercício 9 (Exercício 4.5 ML) 

Derive a regra do gradiente descendente para uma rede constituída apenas por uma unidade com saída 
a, onde 

G=Wo+WiXi+ WiXi 2 +...+ w n x n + w n x n 2 

Exercício 10 (2' Série de Problemas 2001-2002) 

Considere o seguinte conjunto de treino e a rede apresentada em seguida: 



Xi 


x 2 


x 3 


x 4 


Classe 




















1 





1 


1 


1 














1 


1 


1 

























1 










1 













1 


1 


1 




1 


1 
















1 







1 


1 














1 


1 


1 




1 



















1 







1 


1 













1 





1 








WI5 = 0.5 



WQ5=-0 5 

W57 = 1.0 




W07 = 0.0 



W67 = 1.0 



Wiií. ii.; 



W4ó=l.fl 



Cada nó da rede com índice j (excepto os de entrada) implementam a função xj=í(wjo+SíWjíXí) com f a 
função sigmoidal. 

Considerando que esta rede é treinada em modo batch usando como medida do erro a soma dos 
quadrados dos desvios, calcule (sugestão: utilize uma folha de cálculo): 
a) A derivada parcial do erro em relação ao peso W57. 
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b) A derivada parcial do erro em relação ao peso W15. 

Exercício 11 (Teste 4/05/2002) 

Indique quais os pesos que utilizaria numa rede neuronal definida sobre o espaço { 1, O} 4 com apenas 
um nó, que use a função sigmoidal, para aproximar a função Booleana g=xix 2 +x 4 . Considere que os 
pesos estão limitados ao intervalo [-10.0, +10.0]. 
Nota: Este nó implementa a função f=f(wO+Z 4 i=iWiXi) sendo f a função sigmoidal. 



Exercício 12 (Exame 11/06/2002) 

Considere a rede neuronal ilustrada na figura. 




onde cada nó da rede com índice j (excepto os de entrada) implementam a função xj=í(wjo+SíWjíXí) 
com f a função sigmoidal. Assuma que o erro que se pretende minimizar é dada por 
E( W)= 1 /2Z deD w(t d -O d ) 2 +yZ iJ W 2 ij 

a) Indique a razão pela qual existe o segundo termo na expressão do erro, e qual o seu efeito. 

b) Determine a expressão para a derivada parcial do erro em relação a W42. 

Exercício 13 (Exame 12/07/2002) 

Considere que se pretende treinar um perceptrão, sem unidades escondidas, usando a regra delta (delta 
rule), para aprender o seguinte conjunto de treino: 

a) Indique se é garantido que este método de treino vai ou não convergir para uma solução do 
problema, e em caso afirmativo, em que condições. 

b) Assuma que a unidade tem um threshold, discreto, cujo valor está inicializado a 0, tal como 
todos os pesos. Usando um valor |i=0.1, indique o valor dos pesos após processar, uma vez, 
cada um dos exemplos de treino. (O nó está activo (isto é, tem a saída a 1) se a soma pesada 
dos valores de entrada for igual ou superior ao valor do threshold. 

c) Diga quais as vantagens em usar unidades que usam uma função de activação diferenciável, 
(função logística ou tangente hiperbólica). 

d) Descreva duas forma de evitar o problema do sobre-aprendizagem (overfitting quando se usam 
redes neuronais treinadas com retro-propagação. 
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Noções Básicas de Probabilidades 



Regra do Produto: P(AaB) = P(AIB)P(B) = P(BIA)P(A) 
Regra da Soma: P(AvB) = P(A)+P(B) - P(AaB) 
Teorema de Bayes 

P(D) 
Teorema das Probabilidades Totais: 

se Al, ..., An são eventos mutuamente exclusivos ou seja L n i = iP(A)=l então 

P(B) = f^P(B\A i )P(A i ) 

Com: 

• P(h) — > probabilidade à priori da hipótese h\ reflecte o conhecimento sobre o domínio. 

• P(D) — > probabilidade à priori do conjunto de treino D\ 

• P(DI h) — > probabilidade do conjunto de treino D dada a hipótese h\ 

• P(hl D) — > probabilidade da hipótese h dado o conjunto de treino £); reflecte a confiança de que h é 
verdadeiro face às observações efectuadas e registadas em D - objecto da Aprendizagem. 



Algoritmo Base para Aprendizagem da Hipótese MAP 



o Para cada hipótese (h)do espaço de hipóteses (H), calcular P(hlD) 

h MAP=Mê™*heH P(h\D) 

P(D I h)P(h) 
= arg max h H 

heH p(D) 

= argmax te// P(D\h)P(h) 

P(D) pode ser eliminado uma vez que é constante e independente da hipótese h. 
o Escolher h M AP como modelo do conjunto D. 

■ Não existindo conhecimento sobre a crença de que uma hipótese é mais provável que qualquer 
outra 

P(h) = —\/heH 

\H\ 

■ Assumindo que o conjunto de treino D não contém ruído, a probabilidade de observar um exemplo 
xi com classificação di dado h é 1 se di=h(xi) e caso contrário. Donde 

f l,sedi=/z( xi )VdieD 
P(D\ h) =A 

L 0, caso contrário 
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Classificador Óptimo de Bayes (Bayes Optimal Classifier) 

Quando aplicado à classificação de novas instâncias, uma possível optimização do algoritmo anterior 

consiste em pesar as probabilidades de cada hipótese dado o conjunto de treino [P(hlD)], pelas 
probabilides de cada classificação possível v, face a cada hipótese h x . 

h = arg max v Gy £ P(v . I h t )P(h i I D) 

J hjEH 

Exercício 1 (Machine Learning - Exemplo 6.2.1) 

Um doente foi submetido a um exame de laboratório para detectar se tinha cancro, e o resultado do 
exame deu positivo. Este exame devolve um resultado positivo correcto em apenas 98% dos casos em 
que a doença está efectivamente presente, e um resultado negativo correcto em apenas 97% dos casos 
em que a doença não está presente. Para além disso, 0.008 da população total sofre de cancro. 
Determine se o doente tem cancro ou não. 



Exercício 2 (Machine Learning - Exercício 6.1) 

Suponha que o doente é submetido a um novo teste, e que este também dá um resultado positivo. Qual 
a probabilidade a posteriori para as duas hipóteses depois destes dois testes. Assuma que os testes são 
independentes. 



Classificador de Naive Bayes 

Adequado a casos em que as instâncias são descritas por uma conjunção de atributos x=<ao, ai, ..., a n > 



Vnb = 



= arg max 



argmax vey P(v, \a ,a v ...,a n ) 

j j 

P(a ,a 1 ,...,a n \v j )P(v j ) 



Vi eV 



P(a ,a v ...,a n ) 
= argmax veV P(a ,a v ...,a n \v j )P(v j ) 

n 

= arg max v , eV P{v } ) JJ P{a t I Vj) 

!=0 



Exercício 3 (Machine Learning - Exemplo 6.9.1) 

Considere o seguinte conjunto de treino. 



Outlook 


Temp 


Humidity 


Wind 


Play? 


Sunny 


Hot 


High 


Weak 


No 


Sunny 


Hot 


High 


Strong 


No 


Overcast 


Hot 


High 


Weak 


Yes 


Rainy 


Mild 


High 


Weak 


Yes 


Rainy 


Cool 


Normal 


Weak 


Yes 


Rainy 


Cool 


Normal 


Strong 


No 


Overcast 


Cool 


Normal 


Strong 


Yes 


Sunny 


Mild 


High 


Weak 


No 


Sunny 


Cool 


Normal 


Weak 


Yes 


Rainy 


Mild 


Normal 


Weak 


Yes 


Sunny 


Mild 


Normal 


Strong 


Yes 


Overcast 


Mild 


High 


Strong 


Yes 


Overcast 


Hot 


Normal 


Weak 


Yes 
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Rainy 



Mild 



High 



Strong | No 



Nestas condições, determine justificando, a classificação obtida pelo algoritmo Naive Bayes para os 
seguintes exemplos: 

a) <Sunny, Cool, High, Strong> 

b) <Overcast, Hot, Normal, Strong> 

c) <Rainy, Cool, High, Weak> 



Exercício 4 (Exame 28-10-2000) 

Para este problema considere o espaço de instâncias representado pelo espaço booleano de 6 
dimensões e admita que lhe é fornecido um conjunto de treino que inclui todas as instâncias deste 
espaço, rotulado de acordo com a expressão booleana f=xiV xix 2 x 3 . 

a) Determine a classificação obtida para a instância 100010, utilizando o algoritmo Naive Bayes. 
Recorde que este algoritmo classifica os exemplos aplicando a regra de Bayes e assumindo que 
a probabilidade de um atributo dada a classe da instância é independente dos valores dos outros 
atributos. 

b) Repita a alínea anterior para a instância 011011. 

c) Comente os resultados obtidos e indique, justificando detalhadamente, se, neste problema estão 
satisfeitas as condições para que este classificador seja óptimo. 

Exercícios (Teste 1999) 

Considere o seguinte conjunto de treino. 





Z1 


Z2 


Z3 


z 4 


X 


XI 








1 





N 


X2 


1 











N 


X3 





1 


1 


1 


p 


X4 


1 


1 


1 





p 


X5 








1 





N 


X6 


1 


1 


1 


1 


P 


X7 





1 





1 


N 


X8 














N 



a) Determine a probabilidade Pfo I P) e Pfe I AO, para i=l, 2, 3 e 4. 

b) Determine a classificação obtida para os exemplos 1010 e 0110 utilizando o algoritmo naive 
Bayes. Recorde que este algoritmo classifica os exemplos aplicando a regra de Bayes e 
assumindo que P(zi, z 2 , z 3 , z 4 I X) = P(zi I X)P(z 2 I X)P(z 3 I X)P(z 4 I X) 

c) Indique, justificando, se, neste problema, estão satisfeitas as condições para que este 
classificador seja óptimo. 

Exercício 6 (Exame 18-12-1999) 

Determine a classificação obtida para o exemplo Cll utilizando o algoritmo naive Bayes. Recorde que 
este algoritmo classifica os exemplos aplicando a regra de Bayes e assumindo que P(zi, z 2 , z 3 I X) = 
P(zi I X)P(z 2 I X)P(z 3 I X), considerando o seguinte conjunto de treino. 
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Zl 


Z2 


Z3 


X 


XI 


A 





1 


N 


X2 


B 


1 





P 


X3 


C 


1 


1 


P 


X4 


A 


1 


1 


N 


X5 


C 





1 


N 


X6 


A 


1 


1 


N 


X7 


B 


1 





P 


X8 


C 








N 



Exercício 7 (2* Série de Problemas de 2002) 

Considere o conjunto de treino do exercício 2.13. Calcule a classe atribuída pelo algoritmo de Naíve 
Bayes aos exemplos (xi, x 2 , x 3 , x 4 )=(0,l,l,l) e (xi, x 2 , x 3 , x 4 )=(l,0,l,l). 



Exercício 8 (Exame 11-06-2002) 

Suponha que se pretendia aplicar o algoritmo de classificação Naive Bayes ao problema descrito no 
exercício 2.14. 

a) Descreva que pré-processamento aplicaria aos dados para poder aplicar este método a este 
problema. 

b) Usando o método que descreveu na alínea anterior, qual a classificação obtida para a instância 
com coordenadas (1.0 1.0)? 

Exercício 9 (Exame 12-07-2002) 

Considere o conjunto de treino do exercício 2.15. Determine a classificaçãoo obtida para o exemplo 
V2V4V9 utilizando o algoritmo naive Bayes. Recorde que este algoritmo classifica os exemplos 
aplicando a regra de Bayes e assumindo que P(xi,x 2 ,x 3 IX)=P(xilX) P(x 2 IX) P(x 3 IX) P(X). 



Redes de Bayes 



Uma rede de Bayes ou de crenças é um grafo sem ciclos, em que: 

1. Os nós representam variáveis aleatórias; 

2. Os arcos representam influência directa de um nó noutro; 

3. Cada nó tem uma tabela de probabilidades condicionada, que quantifica o efeito dos nós pais 
no próprio nó. 

Al goritmo de Construção de Redes de Bayes 



1. Escolha o conjunto das variáveis relevantes que descrevem o domínio. 

2. Escolha uma ordem para as variáveis, de modo a que os pais de um nó surjam sempre antes do 
nó de acordo com essa ordenação. 

3. Para cada variável Xi: 

a. Seleccione uma variável Xi e adicione um nó à rede. 

b. Escolha o conjunto de nós pais para a variável Xi, de modo a que este conjunto seja 
mínimo e que P(Xi I X { . u ..., Xi)=P(Xi I Pais(XO). 

c. Defina a tabela de probabilidades condicionada para Xi. 
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Exercício 10 (Artificial Intelligence: a Modern Approach - exemplo) 

Considere a seguinte situação: Você instalou um alarme de assaltos em casa. Este alarme é 
razoavelmente de confiança na detecção de assaltos, mas também responde ocasionalmente a pequenos 
tremores de terra. Para além disso você tem dois vizinhos, John e Mary, a quem pediu que lhe 
telefonassem para o emprego quando ouvissem o alarme. O John telefona sempre que ouve o alarme, 
mas por vezes confunde o toque do telefone com o alarme e também telefona. Por outro lado, a Mary 
gosta de ouvir a música bastante alto e por vezes não ouve o alarme tocar. Dada a evidência de quem 
telefonou ou não, gostaríamos de estimar a probabilidade de ter ocorrido um assalto. Desenhe a rede 
que representa esta situação. 



Exercício 1 1 (Machine Learning - Exercício 6.6) 

Desenhe a rede de Bayes para o problema PlayTennis, tendo em conta o seguinte conjunto de treino. 



Defina a tabela de probabilidades 
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Exercício 12 (Exame 13-02-2001) 

Considere a seguinte rede de Bayes: 




a) Considerando que os atributos A,B,C e D são binários, enumere um conjunto de instâncias 
cujas probabilidades condicionadas reflictam exactamente os parâmetros desta rede de Bayes. 
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b) Se lhe forem dados os valores A=l, B=l e C=l, qual é a probabilidade de D ser 1? 

c) Se lhe forem dados os valores A=l e D=0, qual é a probabilidade de B ser 0? 

d) Considere o conjunto de instâncias que obteve na alínea a) e considere que pretendemos prever 
D a partir dos valores de A, B e C. Determine: 

i ) Qual a entropia do conjunto de treino inicial? 

ii ) Qual o atributo testado numa árvore de decisão que use a regra do ganho de informação? 

Exercício 13 (Exame 11-01-2001) 

Considere o espaço de instâncias definido no espaço rectangular de [0.0, 1.0]x [0.0, 1.0]. Cada 
instância neste espaço é representada por um par de números decimais do intervalo [0.0, 1.0], 
arredondados às décimas. Neste espaço suponha que lhe é dado o conjunto de treino apresentado a 
seguir. 





Zl 
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XI 
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B 



Assuma que os atributos z\ e z 2 foram discretizados , usando o valor 0.5 como limite. Assim, zi<0.5 
passa a corresponder ao valor e zi>0.5 passa a corresponder ao valor 1. O mesmo se aplica a z 2 . 

a) Admitindo que cada instância passa a ser descrita por 3 atributos (zl, z2, e o rótulo A ou B), 
descreva qual a menor rede de Bayes que permite descrever a distribuição estatística observada. 

b) Descreva os coeficientes das tabelas de cada um dos nós da rede de Bayes obtida. 

Exercício 14 (Artificial Intelligence: a Modern Approach - exercício 15.2) 

Numa estação nuclear existe um alarme que é activado quando a medida da temperatura excede um 
determinado valor. Considere as variáveis booleanas A (alarme activado), F A (falha no alarme) e F T 
(falha no termómetro), e as variáveis reais V (o valor lido pelo termómetro) e T (a temperatura actual). 

a) Desenhe a rede de Bayes para este domínio, sabendo que o termómetro tem maior tendência a 
falhar quando a temperatura se torna muito alta. 

b) Suponha que quer o valor da temperatura actual quer do valor lido pelo termómetro só assume 
um de dois valores: normal e alta; e que o termómetro fornece dados incorrectos x% do tempo 
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em que está a funcionar, e que tem falhas y% do tempo. Determine a tabela de probabilidades 
condicionada associada ao nó V. 

c) Suponha que o alarme funciona todo o tempo em que não está a falhar. Determine a tabela de 
probabilidades condicionada associada ao nó A. 

d) Suponha que quer o termómetro quer o alarme estão a funcionar, e que o alarme é activado. 
Calcule a probabilidade de a temperatura ser demasiado elevada. 

Exercício 15 (Artificial Intelligence: a Modern Approach - exercício 15.2) 

Dois astrónomos, em diferentes partes do mundo, fazem medições Mi e M 2 do número de estrelas 
numa determinada região do céu, utilizando para tal os seus telescópios. Normalmente, existe uma 
pequena possibilidade de erro associada à contagem as estrelas, acrescendo uma ao número real. Cada 
telescópio pode (com uma pequena probabilidade) estar mal focada (evento Fi e F 2 ), o que conduz a 
um acontagem deficiente em 3 ou mais estrelas. 
Desenhe a rede que representa o domínio descrito. 

Exercício 16 (2* Série de Problemas 2000-2001) 

Determine a rede de Bayes com menor número de parâmetros, que modela exactamente a distribuição 



observada no seguinte conjunto de dados: 
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Princípio das Descrições Mais Compactas (MDL) 

O MDL corresponde à perspectiva bayesiana do Occam's razor ("a explicação mais curta é sempre a 
melhor"). A motivação de partida é a interpretação da definição de h M AP, à luz dos conceitos da Teoria 
da Informação. 

h MAP = arg max heH P(D I h)P(h) 

<=> h MAP = ar S max /ze// lo §2 P(D I h) + log 2 P(h) 

<=> h MAP = ar § mÍn heH ~ l0 §2 P ( D I h) ~ l0g 2 P(K) 

Onde 

• -log 2 P(h) -^éo tamanho de h sob a codificação óptima para o espaço de hipóteses H, ou seja é o 

tamanho de h usando a representação óptima. 

• -log 2 P(DI h) — > é o tamanho do conjunto de treino D dada a hipótese h, sob a representação óptima. 

h MAP = h M DL quando se usa a representação óptima. 
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Repare-se que P(DI h) é independente da codificação dos elementos de treino (x) - pois são sempre os 
mesmos para todas as hipóteses - apenas depende da codificação da classificação atribuída pela 
hipótese h [f(x)]. Seja m= #D, ora para codificar cada um dos exemplos são necessários log 2 m bits, e 
apenas é necessário identificar os exemplos mal classificados. 



Exercício 17 (2* Série de Problemas 2002) 

Calcule a probabilidade da classe ser 1 para os exemplos do exercício 4.7 admitindo que o problema é 
adequadamente modelado pela rese de Bayes da figura seguinte: 
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Capítulo 5 - Support Vector Machines (SVMs) 



Exercício 1 

Considere que os vectores de suporte extraídos a partir de um determinado conjunto de treino são 

Pi=[1.0; 0.0] com yi=l e ai =2; p 2 =[0.0; 1.0] com y 2 =l e a 2 =2; p 3 =[0.0; 0.0] com y3=-l e a 3 =4 
e que o parâmetro b do classificador é -1. 

a) Como classifica os seguintes elementos, usando um kernel linear? 

i. xi=[1.0; 1.0] 
ii. x 2 =[0.0;0.0] 
iii. x 3 =[0.5; 0.0] 

b) Que função é representada? 



a) Usando os resultados do exercício anterior, determine os vectores de suporte para a função 
conjunção. 

b) Volte a classificar os pontos do exercício anterior, com um kernel linear e com os seguintes 
parâmetros: b=-3; yi=l e 0Ci=4; y 2 =-l e oc 2 =2; e y3=-l e 0C3=2. 



Exercício 3 

a) Consegue identificar os vectores de suporte para a função disjunção exclusiva, em R z , 
considerando um kernel linear? 

b) Que kernel poderia usar para criar um classificador capaz de classificar de acordo com esta 
função? 

c) Sabendo que os vectores de suporte são pi=[1.0; 0.0] com yi=l e oci=0,0218; p 2 =[0.0; 1.0] com 
y 2 =l e oc 2 =0,0218; p 3 =[1.0; 1.0] com y 3 =-l e oc 3 =0,0199 e p 4 =[0.0; 0.0] com y 4 =-l e oc 3 =0,0236 
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e que os parâmetros do classificador são b=-0,999, 7^10 e r=50, determine a classificação para 
os pontos anteriores usando o kernel escolhido na alínea anterior. 

Exercício 4 

Escolha um kernel que permita classificar correctamente todos os pontos dos seguintes conjuntos de 
treino. 





Exercício 5 

Considere o seguinte conjunto de treino: 
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g) Determine, graficamente, a equação do hyperplano (neste caso, uma recta) de margem máxima 
que separa as classes. 

h) Admitindo que <xi,x 2 > é o produto interno, em R 2 , dos dois vectores, escreva as equações que 
devem ser resolvidas para obter este hiperplano de margem máxima. Para tal, concretize as 
equações 1.24 e 1.25 do livro "Learning with kernels" para este caso particular. 

i) Verifique que a sua solução para a alinea a) satisfaz as equações descritas na alinea b) 

j) Escreva as equações 1.31 e 1.32 para este problema. Indique quais os valores obtidos para os 
coeficientes alphai, por análise da solução da alínea a), e verifique que estes valores satisfazem 
as equações 1.31 e 1.32. 

k) Escreva as equações 1.31 e 1.32, mas considerando agora que se usa o kernel polinomial 
<xi,x 2 > = k(xi,x 2 ) = (xi T x 2 ) 2 

Exercício 6 

Considere novamente os dados do problema 1 que se pretende resolver usando SVMs com o kernel 
k(xi, x 2 )=<xi, x 2 > 2 . Suponha que os vectores de suporte são os vectores xi=(0.75,0.75), x 2 =(0.5,0.75) e 
x 3 =(0.875,0.625). Quais são as coordenadas do vector x 4 =(1.0, 1.0) após ser feita a transforamção de 
variável X4->(k(xi,X4), k(x 2 ,XzO, k(x3,XzO)? 
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K Nearest Neighbors (KNN) 



Algoritmo de Treino: Cada exemplo de treino <x,f(x)>é adicionado à lista de exemplos de treino. 
Algoritmo de Classificação: dada uma instância x para ser classificada, 

• Seja xi...x k os vizinhos mais próximos de x q , 

• A classificação de xq será 



/(^)^argmax vGy J<?(v, /(*.)) 
onde ô(a, b)=l se a=b e ô(a, b)=0 caso contrário. 



í=i 



Exercício 1 (Exame 11-01-2000) 






Considere o espaço de instâncias definido no espaço rectangular de [0.0, 1.0]x [0.0, 1.0]. Cada 
instância neste espaço é representada por um par de números decimais do intervalo [0.0, 1.0], 
arredondados às décimas. Neste espaço suponha que lhe é dado o seguinte conjunto de treino: 
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a) Usando a técnica experimental de leave-one-out, qual o desempenho do método do vizinho 
mais próximo neste problema? Assuma que vizinhos a igual distância são escolhidos 
aleatoriamente, com igual probabilidade. 

b) Usando a mesma técnica experimental, indique qual o desempenho quando é usado o método 
dek-NN, comk=3. 
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Algoritmo de EM 



Iniciar a hipótese inicial, atribuindo valores aleatórios ao parâmetro que descreve cada uma 



das variáveis zy. 



Repetir 

1. Calcular o valor esperado E[zíj] de cada variável não observável Zy, assumindo que a 
hipótese actual h=<\X\, |LL2> é verdadeira. 



*w- 



k 



n=\ 



se zij ~ N (|LLj, c 2 ) então 
p(x = x i \ju = jUj) = e n 

2. Calcular a hipótese mais provável h'=<|i'i, |LL'2>, assumindo que o valor assumido por 
cada variável desconhecida Zy é o seu valor esperado E[zíj] calculados no passo 1. Em 
seguida substituir a hipótese h=<|LLi, |LL2> pela nova hipótese h'=<|i'i, |Li'2>. 

m r i 

Z*fc»k 

Até que a hipótese estabilize, ou seja até que os parâmetros convirjam. 



Exercício 2 (2' Série de Problemas 2000-2001) 

Considere a seguinte série de números: 2,48; 3,5; 1,35; 3,66; 0,29; 4,2; 1,7; 3,04; 1,36; 2,17; 0,98; 
2,67; 1,05; 4,26; 1,03; 2,09; 0,71; 1,66; 0,89; 0,45, que se sabe ter sido gerada por amostragem 
(equiprovável entre as duas distribuições) de duas distribuições gaussianas de variância unitária e 
média desconhecida. Usando o método EM (Expectation / Maximization) determine: 

a) A média de cada uma das gaussianas. 

b) Quais dos pontos foram gerados por cada uma das gaussianas. 
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Cross-Validation 

Cross-Validation é uma técnica de resampling usada habitualmente para seleccionar o modelo mais 
adequado e para estimar o erro de classificação em novas instâncias. Esta técnica assume que todos os 
exemplos disponíveis são utilizados para treino e para teste. O procedimento geral do k-fold cross- 
validation funciona da seguinte forma: 

1. Divide-se o conjunto de exemplos em k sub-conjuntos de igual tamanho. 

2. Para cada sub-conjunto k, estima-se o modelo sobre os restantes sub-conjuntos, e calcula-se o 
erro do modelo no sub-conjunto k. 

3. Combinam-se os vários resultados obtidos de forma a estimar o erro associado ao modelo. 

Exercício 1 

Considere as duas seguintes séries de números, obtidas com dois algoritmos de aprendizagem usando o 
método de 10-fold cross validation. Cada um dos resultados representa o desempenho no conjunto de 
teste, e cada conjunto de teste contém 100 elementos. 

a) Usando um teste estatístico do tipo "T-student" emparelhado (paired t-test), determine qual o 
grau de confiança associado à hipótese de os dois algoritmos terem um desempenho 
semelhante (considere os dados da Tabela 1). 

b) Para a seguinte série de resultados, obtida noutro problema, em condições idênticas à da 
alínea anterior, determine qual o algoritmo com desempenho superior, e qual o grau de 
confiança associado a esse resultado (considere os dados da Tabela 2). 
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Exercício 2 (Machine Learning - Exercício 6.5) 

Considere o Princípio da Descrição Mínima aplicado ao espaço de hipóteses H, consistindo na 
conjunção de até n atributos lógicos. Assuma que cada hipótese é codificada simplesmente pela 
listagem dos atributos presentes na hipótese, onde o número de bits necessários para codificar cada um 
dos n atributos é dado por log 2 n Suponha que a codificação de um exemplo dada a hipótese usa bits 
caso o exemplo seja consistente com a hipótese e log 2 m bits caso contrário (para indicar quais dos m 
exemplos foram mal classificados - a classificação correcta pode ser inferida como sendo a oposta à 
predita pela hipótese). 

a) Escreva a expressão para a quantidade a ser minimizada de acordo com o Princípio da Descrição 
Mínima. 

b) Determine as distribuições de probabilidade para P(h) e P(DI h) tal que o algoritmo MDL devolva 
hipóteses MAP. 

c) É possível construir um conjunto de treino tal que exista uma hipótese consistente, mas que o MDL 
escolha uma hipótese menos consistente? Se sim, mostre o conjunto de treino, senão explique 
porquê. 
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Capítulo 8 - Algoritmos Genéticos 



Exercício 1 (Machine Learning - Exercício 9.1) 

Desenhe o algoritmo genético para aprender regras de classificação para conjunções, para o exemplo 
do PlayTennis? , da tabela 3.2. Descreva detalhadamente a codificação por bit-string das hipóteses, 
assim como o conjunto de operadores de cruzamento. 

Exercício 2 (Teste 1995) 

Suponha que se pretende utilizar um algoritmo genético para derivar os valores dos pesos de uma rede 
neuronal com as seguintes características: 

• Três nós de entrada, 2 nós num nível intermédio (hidden units) e um nó de saída. 

• Cada nó de entrada está ligado aos nós do nível intermédio e estes ao de saída. 

• Cada nó que não seja de entrada implementa a função sigmóide. 

b) Proponha um método de codificação que permita aplicar um algoritmo genético a este 
problema. Quantos bits requer essa configuração? 

c) Qual a função usada para avaliar o desempenho de cada membro da população? 



Exercício 3 (Exame 18-12-1999) 

Considere o problema de determinar um caminho de Euler num grafo, isto é, um caminho que passe 
por todos os nós uma e uma só vez. 

a) Admitindo que o grafo tem N nós, proponha uma codificação que permita codificar possíveis 
soluções para este problema com o objectivo de aplicar algoritmos genéticos. 

b) Proponha uma função de custo que permita a aplicação de um algoritmo genético a este 
problema. 
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Exercício 4 (Exame 12-02-2000) 



Suponha que se pretende resolver o problema da partição utilizando algoritmos genéticos. Neste 
problema, é dado um conjunto S de N números inteiros cuja soma total éM,e pretende-se descobrir se 
existe um sub-conjunto de S tal que a soma dos números nesse sub-conjunto é M/2 . 

a) Proponha uma codificação que permita codificar possíveis soluções para este problema com o 
objectivo de aplicar algoritmos genéticos. 

b) Proponha uma função de custo que permita a aplicação de um algoritmo genético a este 
problema. 

c) Proponha uma outra aproximação para este problema, que não utilize algoritmos genéticos. 

5 (Exame 12-02-2000) ^^^^^^^^^^^^^^^^H 

Pretende-se resolver o seguinte problema (knapsack): existe um conjunto de objectos 0={oi,02,...,o n } 
com tamanhos dados por valores inteiros {si,S2,...,s n }, Sí>1. Pretende-se determinar um subconjunto K 
de O, tal que a soma dos tamanhos dos objectos em K seja tão grande quanto possível, mas menor que 
um dado valor, Sk. (Este problema é o problema do ladrão que tenta escolher o conjunto de objectos a 
levar no seu knapsack de capacidade limitada). 

Proponha codificações que permitam resolver de forma eficiente este problema usando um 
algoritmo genético nos casos em que: n»Sk e n«Sk. 



Exercício 6 (Exame 11-06-2002) 

Suponha que se pretende treinar a rede neuronal da pergunta 12, aplicando um algoritmo genético e 
usando para os pesos valores no intervalo [-1.0, +1.0], com uma precisão de 3 casas decimais. 

a) Proponha uma codificação para este problema e indique quantos bits precisa para codificar um 
elemento da população. 

b) Descreva qual a função de custo que utilizaria. 

Exercício 7 (Machine Learning - Exercício 9.3) 

Represente o programa descoberto pelo GP sob a forma de árvore. Ilustre o resultado de aplicar o 
operador de cruzamento, usando duas cópias da árvore como os dois progenitores. 
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Algoritmo Apriori 



L 1 = {frequent 1-itemsets} 

for ( k = 2; L k _i*0; k++ ) do begin 

C k = apriori-gen (L k _-| ); // New candidates 
forall transactions te D do begin 

C t = subset(C k , t); // Candidates contained in t 
forall candidates cg C t do 
c.count++; 
end 

L k = {cg C k | c.count > minsup} 
end 
Answer =u k L k ; 



Suporte de um itemset A O número de transacções em que o itemset está presente; 

Confiança da regra A=>B O P(BIA) = P(A&B) / P (A) 

Lift A=>B O P(A&B) / P(A)P(B) = P(BIA) / P(B) = conJ{A=>B) I P(B) 

Exercício 1 

Considere que num supermercado foram efectuadas as seguintes transacções: 



Transacção 


Items 


Items 


1 


Natas, Açúcar, Morangos 


A, C,D 


2 


Leite, Açúcar, Cereais 


B,C,E 


3 


Natas, Leite, Açúcar, Cereais 


A, B, C, E 


4 


Leite, Cereais 


B,E 



a) Usando o algoritmo Apriori, determine todos os itemsets frequentes. Considere como suporte 
mínimo aceitável 2. Apresente os conjuntos Ck, L k e suporte de cada itemset em cada passo. 

b) A partir dos itemsets frequentes, descobertos na alínea anterior, determine as regras de 
associação, com grau de confiança superior a 50%. 

Exercício 2 

Considere que uma distribuidora de filmes fez um inquérito e recolheu os seguintes dados: 



Pessoa 


Filmes 


1 


Star Wars II, Spider Man, Time Machine 


2 


Harry Potter, Lord of the Rings, Monsters Inc 


3 


Star Wars II, Spider Man, Astérix 


4 


Star Wars II, Spider Man, Planet of the Apes 
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5 


Panic Room, Mulholland Drive 


6 


Harry Potter, Lord of the Rings, Monsters Inc 


7 


Panic Room, Mulholland Drive 


8 


Beautiful Mind, I am Sam, Shipping News 


9 


Harry Potter, Lord of the Rings, Monsters Inc 


10 


Beautiful Mind, I am Sam, John Q 



a) Usando o algoritmo Apriori, determine todos os itemsets frequentes. Considere como suporte 
mínimo aceitável 2. Apresente os conjuntos Ck, L k e suporte de cada itemset em cada passo. 

b) A partir dos itemsets frequentes, descobertos na alínea anterior, determine as regras de 
associação, com grau de confiança superior a 50%. 

Exercício 3 (Data Mining - Exercício 6.3) 

Considere uma base de dadps com 4 transacções de acordo com a tabela seguinte, um suporte mínimo 
de 60% e uma confiança mínima de 80%. 



TID 


Data 


Itens Comprados 


T100 


15 Out 1999 


{K,A,D, B} 


T200 


15 Out 1999 


{D, A, C,E, B} 


T300 


19 Out 1999 


{C,A,B,E} 


T400 


22 Out 1999 


{B,A,D} 



a) Enumere os conjuntos de itens frequentes (itemsets) descobertos usando o algoritmo apriori. 

b) Enumere as regras de associação descobertas. 



Exercício 4 (Data Mining - Exercício 6.4) 

Considere uma base de dadps com 4 transacções de acordo com a tabela seguinte, um suporte mínimo 
de 60% e uma confiança mínima de 80%. 



Cliente 


TID 


Itens Comprados (marca-categoria) 


01 


T100 


{King's-Crab, Sunset-Milk, Dairyland- Cheese, Best-Bread } 


02 


T200 


{Best-Cheese, Dairyland-Milk, Goldenfarm- Apple, Tasty-Pie, Wonder-Bread} 


01 


T300 


{Westcoast- Apple, Dairyland-Milk, Wonder-Bread, Tasty-Pie} 


03 


T400 


{Wonder-Bread, Sunset-Milk, Dairyland-Cheese } 



a) À granularidade dos itens comprados, enumere os conjuntos de itens frequentes (itemsets) 
descobertos usando o algoritmo apriori. 

b) À granularidade das categorias de itens comprados (por exemplo "Milk"), enumere os 
conjuntos de itens frequentes (itemsets) descobertos usando o algoritmo apriori. 

Exercício 5 (Data Mining - Exercício 6. 1) 

O algoritmo apriori utiliza o conhecimento de algumas propriedades do suporte dos subconjuntos. 

a) Prove que todos os subconjuntos não vazios de um conjunto frequente são também frequentes. 

b) Prove que o suporte de qualquer subconjunto não vazio s' do conjunto de itens s tem de ser 
maior ou igual ao suporte de s. 

c) Dados um conjunto de itens / e um seu subconjunto s, prove que a confiança da regra s'=>(l-s') 
não pode ser maior que a confiança da regra s=>(l-s) 9 com s 9 um subconjunto de s. 
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